Coursera Machine Learning Lunar’s note

机器学习实例 图片OCR

流水线

图片OCR是指识别图片中的文字信息。那么对于这个问题,流水线就是

  1. 识别到文本区域
  2. 字符分割
  3. 对分割的字符分类

滑动窗口

是从图像中提取对象的方法。先训练好分类器,分类器的输入是特定规格的图像。在要处理的图像的角落开始截取这个规格并传入分类器,并将这个窗口不断移动,每次移动到新的地方继续截取该处图像传入分类器直到遍历完整张图片。

获取数据和人工数据合成

之前已经说过数据的重要性,但是数据获取在许多时候很困难和费时,这时候就可以采用人工合成数据。
人工数据合成既可以直接创造出数据也可以通过修改已有数据来实现。比如文字识别,可以将已有的图像加上噪点,扭曲或者使用其他方法。
获取数据除了自己采集还可以采用众包的方式,在网上以较为便宜的价格雇佣一些人帮你采集,比如在这个网站

上限分析 Ceiling Analysis

首先计算出系统总精度,然后对于流水线中的某个模块,手工保证其精度为100%,同时计算出新的系统总精度,并对于实际精度。完成每个模块后,着力开发最能提高系统精度的部分。